Skip to main content

4.2 Summarize og boxplot - statistikk for metriske variabler

Kommandoene summarize og boxplot brukes til å vise oppsummerende statistikk for metriske/kontinuerlige variabler. I likhet med andre statistikker i microdata.no, kan en lage statistikk også for delpopulasjoner via IF-betingelser (man trenger ikke justere på datasettet i forkant).

Nedenfor vises eksempler for variablene inntekt og formue målt i hhv. 2019 og 2018, der populasjonen er alle bosatte i alderen 16-66 år.

Kommandoen summarize viser nøkkelstatistikk for de spesifiserte numeriske variablene:

  • Gjennomsnitt

  • Standardavvik

  • Antall enheter med gyldig verdi

  • Første prosentilverdi (øvre grenseverdi)

  • Indre kvartilverdier (50% = medianverdi)

  • Siste prosentilverdi (nedre grenseverdi)

Det er også mulig å vise ginikoeffisient-verdier samt interkvartilverdier (avstanden mellom 75. og 25. prosentil) ved å bruke hhv. opsjonene gini og iqr.

Kommandoen boxplot viser en grafisk fremstilling gjennom et standard boxplot med boks for de to midterste kvartilene, gjennomsnitt samt minimums- og maksimumsverdi.


TIPS

Om en holder musepekeren over de ulike områdene i boxplot-figuren, vil en kunne se hvilke verdier de ulike punktene representerer.


Kommandoen boxplot gir mulighet til å vise separate tall for gitte kategorier representert ved en annen kategorisk variabel:

boxplot variabel1, over(variabel2)

Eksempel på boxplot for inntekt per 2000-01-01 fordelt på kjønn:


OBS!

Verdiene for gjennomsnitt, standardavvik og gini påvirkes av at statistikkpopulasjonen winsoriseres før utregningen av tallene. Winsorisering vil si at man koder om ekstremverdier og setter dem til grenseverdien for hhv. første og siste percentil, jfr. verdiene for 1% og 99% i summarize-resultatet. Dette påvirker gjennomsnitt, standardavvik og gini slik at beregnet verdi blir noe lavere enn faktisk verdi. Dette kommer an på hvor skjev fordelingen for de respektive variabelpopulasjonene er. Ved normalfordeling vil ikke winsorisering gi noe særlig utslag.

Prosentil-, kvartil- og medianverdier påvirkes ikke av winsorisering, men vises med tresifret nøyaktighet.

Grafiske visninger av numeriske utregniner gjennom kommandoer som boxplot, barchart, histogram og hexbin påvirkes også av de nevnte personverntiltakene.

Regresjonsanalyser returnerer hovedsaklig estimater og i liten grad personidentifiserende opplysninger. Derfor er ikke disse gjenstand for tiltakene nevnt over. Du finner beskrivelser av tilgjengelige regresjonsanalyser i kapittel 5.

\rhd Mer info om winsorisering og øvrige personverntiltak finner du her


For mer informasjon om disse kommandoene, bruk kommandoene help summarize eller help boxplot. Dette vil vise syntaxeksempler og en fullstendig liste over tilgjengelige opsjoner som kan brukes til å tilpasse utseende til statistikken som genereres. F.eks. kan opsjonen gini brukes til å vise gini-koeffisientverdier i tillegg til standard summarize-resultat.


\rhd Eksempler på bruk av summarize og boxplot